We present a simple yet effective end-to-end Video-language Pre-training (VidLP) framework, Masked Contrastive Video-language Pretraining (MAC), for video-text retrieval tasks. Our MAC aims to reduce video representation's spatial and temporal redundancy in the VidLP model by a mask sampling mechanism to improve pre-training efficiency. Comparing conventional temporal sparse sampling, we propose to randomly mask a high ratio of spatial regions and only feed visible regions into the encoder as sparse spatial sampling. Similarly, we adopt the mask sampling technique for text inputs for consistency. Instead of blindly applying the mask-then-prediction paradigm from MAE, we propose a masked-then-alignment paradigm for efficient video-text alignment. The motivation is that video-text retrieval tasks rely on high-level alignment rather than low-level reconstruction, and multimodal alignment with masked modeling encourages the model to learn a robust and general multimodal representation from incomplete and unstable inputs. Coupling these designs enables efficient end-to-end pre-training: reduce FLOPs (60% off), accelerate pre-training (by 3x), and improve performance. Our MAC achieves state-of-the-art results on various video-text retrieval datasets, including MSR-VTT, DiDeMo, and ActivityNet. Our approach is omnivorous to input modalities. With minimal modifications, we achieve competitive results on image-text retrieval tasks.
translated by 谷歌翻译
In recent years, semi-supervised graph learning with data augmentation (DA) is currently the most commonly used and best-performing method to enhance model robustness in sparse scenarios with few labeled samples. Differing from homogeneous graph, DA in heterogeneous graph has greater challenges: heterogeneity of information requires DA strategies to effectively handle heterogeneous relations, which considers the information contribution of different types of neighbors and edges to the target nodes. Furthermore, over-squashing of information is caused by the negative curvature that formed by the non-uniformity distribution and strong clustering in complex graph. To address these challenges, this paper presents a novel method named Semi-Supervised Heterogeneous Graph Learning with Multi-level Data Augmentation (HG-MDA). For the problem of heterogeneity of information in DA, node and topology augmentation strategies are proposed for the characteristics of heterogeneous graph. And meta-relation-based attention is applied as one of the indexes for selecting augmented nodes and edges. For the problem of over-squashing of information, triangle based edge adding and removing are designed to alleviate the negative curvature and bring the gain of topology. Finally, the loss function consists of the cross-entropy loss for labeled data and the consistency regularization for unlabeled data. In order to effectively fuse the prediction results of various DA strategies, the sharpening is used. Existing experiments on public datasets, i.e., ACM, DBLP, OGB, and industry dataset MB show that HG-MDA outperforms current SOTA models. Additionly, HG-MDA is applied to user identification in internet finance scenarios, helping the business to add 30% key users, and increase loans and balances by 3.6%, 11.1%, and 9.8%.
translated by 谷歌翻译
复杂的流量分析,例如加密的流量分析和未知的恶意软件检测,强调需要进行高级方法来分析网络流量。使用固定模式,签名匹配和检测网络流量中已知模式的规则的传统方法已被AI(人工智能)驱动算法取代。但是,缺乏高性能AI网络特定的框架使得不可能在网络工作负载中部署基于AI的实时处理。在本文中,我们描述了流量分析开发工具包(TADK)的设计,这是一个针对基于AI的网络工作负载处理的行业标准框架。 TADK可以在数据中心到边缘的网络设备中基于实时的AI网络工作负载处理,而无需专门硬件(例如GPU,神经处理单元等)。我们已经在商品WAF和5G UPF中部署了TADK,评估结果表明,Tadk可以在流量功能提取时达到每个核心最多35.3Gbps的吞吐量,每核6.5Gbps在流量分类中,并且可以减少SQLI/XSS检测到下降至4.5us每个请求的精度比固定模式解决方案更高。
translated by 谷歌翻译
在2022年的亚马逊KDD杯中,我们旨在采用自然语言处理方法来提高搜索结果的质量,从而大大增强用户体验并与搜索引擎进行电子商务。我们讨论了这项竞赛的实用解决方案,在任务一中排名第六,任务第二和任务3中排名第三。
translated by 谷歌翻译
机器学习模型容易受到分数过失(OOD)的示例,这种问题引起了很多关注。但是,当前的方法缺乏对不同类型的OOD数据的完全理解:有一些良性的OOD数据可以适当地适应以增强学习性能,而其他MALIGN OOD数据将严重地退化分类结果。为了利用数据,本文提出了引擎盖方法,该方法可以利用每个图像实例中的内容和样式来识别良性和恶意数据。特别是,我们通过构建结构性因果模型来设计一个变异推理框架,以使因果关系和样式特征。随后,我们通过干预过程分别提高内容和样式,分别产生恶性和良性OOD数据。良性的OOD数据包含新型样式,但持有我们感兴趣的内容,并且可以利用它们来帮助培训风格不变的模型。相比之下,MALIGN OOD数据继承了未知内容,但通过检测它们可以提高模型的稳健性,以抗欺骗异常。得益于拟议的新型解开和数据增强技术,Hood可以有效地处理未知和开放环境中的OOD示例,在三个典型的OOD应用程序中,其有效性在包括OOD检测,开放设定的半监督学习和开放设定的三个典型OOD应用程序中得到了验证域适应。
translated by 谷歌翻译
在本报告中,我们向CVPR 2022中的EGO4D自然语言查询(NLQ)挑战介绍了Reler@zju-alibaba提交。给定视频剪辑和文本查询,该挑战的目标是确定视频的时间时刻剪辑可以获得查询的答案。为了解决这项任务,我们提出了一个多尺度的跨模式变压器和视频框架级对比度损失,以完全发现语言查询与视频剪辑之间的相关性。此外,我们提出了两种数据增强策略,以增加培训样本的多样性。实验结果证明了我们方法的有效性。最后的提交在排行榜上排名第一。
translated by 谷歌翻译
在本文中,我们介绍了VCSL(视频复制段本地化),这是一种新的综合段级注释的视频复制数据集。与受视频级注释或小规模限制的现有复制检测数据集相比,VCSL不仅具有两个段级标签的数据级,其中有160k现实的视频副本对,其中包含超过280k的本地化copied seggment对,而且还包含超过280k涵盖各种视频类别和各种视频持续时间。每个收集的视频对中的所有复制段均经过手动提取,并伴随着精确注释的启动和结束时间戳。除了数据集外,我们还提出了一种新颖的评估协议,该协议可以更好地衡量视频对之间复制重叠段的预测准确性,并在不同情况下显示出改善的适应性。通过使用拟议的数据集和评估指标对几个基线和最先进的细分级视频副本检测方法进行基准测试,我们提供了一项全面的分析,可以揭示当前方法的优势和劣势作品。 VCSL数据集,公制和基准代码均在https://github.com/alipay/vcsl上公开获得。
translated by 谷歌翻译
在线经济学的发展引起了在产品衣服上发电模型的图像的需求,展示新衣服并促进销售。然而,昂贵的专有模型图像在这种情况下挑战现有的图像虚拟试验方法,因为大多数需要在相当多的模型图像上伴随着配对的衣服图像。在本文中,我们提出了一种廉价但可扩展的弱监管方法,称为深生成点投影(DGP)来解决此特定方案。躺在所提出的方法的核心中是模仿人类预测磨损效果的过程,这是一种基于生活经验的无人汶过高的想象,而不是从监督中学到的计算规则。在这里,使用佩带的样式甘捕获佩戴的实际经验。实验表明,将衣服和身体的粗略对准突出到样式卡空间上可以产生照片逼真的佩戴结果。实际上专有模型图像的实验证明了DGP在产生衣服模型图像时的最先进的监督方法的优越性。
translated by 谷歌翻译
高光谱图像的聚类是一个基本而具有挑战性的任务。最近的高光谱图像聚类的发展已经从浅模型演变为深度,并且在许多基准数据集中实现了有希望的效果。然而,它们较差的可扩展性,稳健性和泛化能力,主要是由离线聚类方案引起的,极大地将其应用限制为大型超光谱数据。为了规避这些问题,我们基于自我监督学习呈现了一个可扩展的深度在线聚类模型,名为Spectral-Spatial对比聚类(SSCC)。具体地,我们利用了由簇号的一维的投影头组成的对称双神经网络,以从光谱空间增强池进行双重对比度学习。我们通过隐式鼓励在群集内相似度和群集冗余之间来定义目标函数。由此产生的方法通过批量优化以端到端的方式培训,使其在大规模数据中具有稳健性,并导致未经看明数据的良好概括能力。三个高光谱图像基准的广泛实验证明了我们的方法的有效性,并表明我们通过大型边缘推进最先进的方法。
translated by 谷歌翻译
本文提出了FLGC,这是一个简单但有效的全线性图形卷积网络,用于半监督和无人监督的学习。基于计算具有解耦步骤的全局最优闭合液解决方案而不是使用梯度下降,而不是使用梯度下降。我们展示(1)FLGC强大的是处理图形结构化数据和常规数据,(2)具有闭合形式解决方案的训练图卷积模型提高了计算效率而不会降低性能,而(3)FLGC作为自然概括非欧几里德域的经典线性模型,例如Ridge回归和子空间聚类。此外,我们通过引入初始剩余策略来实现半监督的FLGC和无监督的FLGC,使FLGC能够聚集长距离邻域并减轻过平滑。我们将我们的半监督和无人监督的FLGC与各种分类和聚类基准的许多最先进的方法进行比较,表明建议的FLGC模型在准确性,鲁棒性和学习效率方面始终如一地优于先前的方法。我们的FLGC的核心代码在https://github.com/angrycai/flgc下发布。
translated by 谷歌翻译